사용자의 MBTI 성향, 인구통계적 정보를 기반으로 한국 관광지를 추천해주는 시스템을 제안한다.
[관광산업①] 한국 관광은 ‘왜’ 이렇게 일본에 뒤처졌을까
trip_Gyeongbokgung <- read.csv("./tripadvisor_crawler/review/Gyeongbokgung_Palace-Seoul.csv")
library(knitr)
kable(trip_Gyeongbokgung[1:5, ])| review_title | review_body |
|---|---|
| Definitely worth stepping out of the airport for when on transit | This place is magical. Its exquisite, so well kept and historical. Definitely worth stepping out of the airport for on that 12 hour transit. So well worth it. |
| Palace | Before visiting the palace I went into the free museum which is situated inside the walls of the palace, beautiful inside. You pay for tickets at a small booth very reasonable price, once inside all I can say is stunning |
| Good for photo ops but difficult with pram | If you want to take photos and wear hanbok- this is the place to be! If you want a deeper understanding of the history, get a guide. The grounds are expansive and you can spend hours wandering especially if you visit the museum there. However, note that it is not pram/wheelchair friendly. Also, lines to get tickets can get really long. |
| Definitely a must in Seoul | Especially worth to see a ceremony. Great to see everyone with the traditional costume and if you dare to rent one your entry is FREE!Have tea at the tea house when available |
| Good | The palace is really nice. Has a museum in there too. Lots of lovely Korean kids dressed up in traditional wear. |
def clean_review(text: str) -> str:
# 1. unicode to ASCII
text = unicodeToAscii(text)
# 2. Remove HTML
text = BeautifulSoup(text, "lxml").get_text()
# 3. Remove Punctuations & lowercase
text = "".join(v for v in text if v not in string.punctuation).lower().split()
# 4. Remove Stop Word
text = [word for word in text if word not in stop]
# 5. lemmatization
text = [lmtzr.lemmatize(word) for word in text]
return ' '.join(text)
| x |
|---|
| place magical exquisite well kept historical definitely worth stepping airport 12 hour transit well worth |
| visiting palace went free museum situated inside wall palace beautiful inside pay ticket small booth reasonable price inside say stunning |
| want take photo wear hanbok place want deeper understanding history get guide ground expansive spend hour wandering especially visit museum however note pramwheelchair friendly also line get ticket get really long |
| especially worth see ceremony great see everyone traditional costume dare rent one entry freehave tea tea house available |
| palace really nice museum lot lovely korean kid dressed traditional wear |
Instagram은 사진 및 비디오 공유 소셜 네트워킹 서비스
어떤 부분에서 관광객들이 매력을 느꼈는지 해시태그를 통해 확인할 수 있음
library(data.table)
insta_Gyeongbokgung <- fread("./instagram_crawler/sample_GBG.csv", encoding = 'UTF-8')
kable(insta_Gyeongbokgung[1:5, ])| V1 | V2 | V3 | V4 |
|---|---|---|---|
| NA | username | content | location |
| 0 | hyeri_l86 | 이제 나의 전용 포즈❤️………………..#서울여행#경복궁#이쁘다#하트#그림자#나비#여행#즐거워 | |
| 1 | kge7878 | #서울 #우정여행 #5명우정영원히❤️ #놀이똥산 #경복궁 #쌈지길 #한복대여 #1박2일여행 #반포밤도깨비야시장 #한강공원 #넘많이먹었다 #우여곡절여행 #우정사진 #일상그램 #뚠뚜니 🐹🐻🐶🐨🦊💕 | |
| 2 | nightrunningcrew | 2019.10.07 MON #경복궁 10K.겨울냄새 느껴지던 오늘! 날씨는 추워졌지만함께 달리면 하나도 안츄우ㅓㅇㅏㄴ추워…🥶#여러분감기조심하세요#내허락없인아프지도마..@nightrunningcrew | |
| 3 | zhanna_nana | У каждого свое понятие исторического места😅Фотка называется не до Gyeongbokgung🌌💫°°°#ootd#아스다나#경복궁#gyeongbokgung |
한국관광공사가 우리나라를 방문한 외래관광객의 한국 여행실태, 한국내 소비실태 및 한국 여행 평가를 조사한 자료
외래관광객의 한국 여행성향을 파악할 수 있음
우리가 관광지를 추천하고자 하는 것이 실제로 외국인 관광객들이 교통편 다음으로 가장 필요로 하는 정보이다.
관광객들이 정보로 필요로하는 맛집정보나 쇼핑장소도 관광지라는 범주에 포함시킨다면 가치있는 아이템이 될 수 있다고 본다.
우리나라에 방문하는 외국인은 주로 아시아인이 많고 그 중에서도 중국과 일본이 압도적으로 많다.
재방문 비율을 고객의 충성도라고 비유를 하자면 중국과 일본 홍콩은 우리나라 관광에 대한 충성도가 높은 편이고 그 외의 국가들은 현저하게 떨어진다.
설문조사 결과 중국과 일본이 한국 여행 만족도 점수가 낮은 편에 속했기 때문에 충성도는 거리에 가장 영향을 받는다고 볼 수 있다.
초록색(역사.유적지)을 집중해서 보면 미국, 러시아 고객은 한국의 역사 유적에 대한 관심이 많다.
빨강색(쇼핑)을 집중해서 보면 일본, 홍콩, 중국 고객은 쇼핑을 하러 오는 경우가 많다.
노란색(케이팝)과 보라색(자연풍경)을 이전의 그림과 비교해서 보면 동남아 고객들은 한국의 자연 풍경과 케이팝에 관심이 많다.
한국에 방문하게 된 고려 요인에서 남성고객과 여성고객의 비율적으로 큰 차이가 나는 것은 유흥과 케이팝이다.
남성고객의 경우 한국의 술문화나 밤거리에 좀 더 관심이 있고 여성고객의 경우 케이팝과 같은 한국 트렌드에 관심이 있다.
이런 디테일을 명소 추천에 반영하게 되면 좋을 것 같다.
젊은 고객들은 역사 유적지는 고려하지 않고 케이팝, 패션 트렌드를 고려하고 한국에 방문하는 경향이 있다.
주황색(식도락)을 보면 미국 러시아 고객의 음식 기호는 맞추지 못하는 것 같다. 반면에, 노란색(역사유적지)을 보면 한국의 역사 유적에 대한 관심이 많았을 뿐만 아니라 실제로도 만족하였다.
이 그룹의 고객들은 전통문화체험을 만족한 경우는 전체적으로 드문 것 같다.
분홍색(전통문화체험)을 보면 동남아 고객들은 이전 국가들에 비해서 전통문화체험을 만족한 경향이 있다.
그 외에도 빨강색(놀이공원)에 대한 한국의 놀이공원에 대한 만족도도 높다.
여성 고객들이 쇼핑에 만족을 하였고 남성 고객들은 한국에서의 유흥에 만족한 경향이 있다.
비율로 봤을 때, 놀이공원이나 민속 행사 관련된 부분은 10대가 60대에 비해 2~3배 더 관심이 있다.
자연경관쪽에서도 10대 고객은 60대에 비해 현저하게 낮은 관심을 보이고 있다.
개요
관광지 리뷰와 사용자들의 개인 별 설문 조사에 기반하여 관광지를 추천한다.
관광지 리뷰, 여행지 정보 문서에 대해서 단어 빈도수에 기반하여 LDA 토픽 모델링을 진행한다.
가입하기 전 설문 조사를 대해서 MBTI 성격유형 조사와 여행 전문 설문조사를 진행한다.
성격과 인구통계 정보가 기록된 유저들의 관광지 리뷰 및 평점이 쌓이게 된 후에 데이터에 근거한 여행지 추천을 해준다.
성격이 기록된 유저 별 여행지 선호 데이터가 없는 현 상황에서는, 성격 정보 중에서도 외향적인 성격만 반영하여 심리학 논문에 기반한 여행지를 추천해주는 것이다.
목적 > LDA를 사용하는 이유는 텍스트 덩어리들의 집합인 관광지를 주제라는 심플렉스 즉, 숫자로 표현하기 위함이다.
LDA가 제안하기를…
문서 별 주제에 대한 사전 분포는 multinomial distribution의 conjugate prior Dirichlet distribution
주제 별 단어 사전 분포도 multinomial distribution의 conjugate prior인 Dirichlet distribution을 사용
이를 통해 얻어진 Dirichlet 사후 분포를 통해서 여행지를 토픽 심플렉스 \(S^K\) 상의 원소로 볼 수 있는 이유는
Dirichlet 분포의 특징을 이용해 문서 별 토픽에 대한 비율로 표현할 수 있기 때문이다. \[ \operatorname{E}[Dir(\alpha_1, \cdots, \alpha_K)] = (\frac{\alpha_1}{\sum \alpha_k }, \cdots , \frac{\alpha_K}{\sum \alpha_k }) \]
마찬가지로, 주제 별 단어의 사후 분포 역시 위를 통해서 단어 심플렉스 \(S^V\) 상의 원소로 볼 수 있게 된다.
차별화된 서비스
향후 서비스 발전 : MBTI 검사 결과를 토대로 고객의 성격 유형과 가장 잘 맞는 관광지 테마/코스를 추천한다. 신규 가입자 대상 MBTI 성격 유형을 검사하고, 고객이 선호하는 관광지 데이터를 학습해
핵심 : 성격 유형에 근거한 관광지 선호 예측 -> 추천 시스템 구현
Mishcel, Shoda & Smith는 2003년 논문에서 성격이 “과거 기억에 근거해 현재와 미래를 해석할 수 있는 연결고리”라 봤다. 성격이 과거 경험에 따라 결정되는데, 이에 그 사람의 경험과 성격을 분석하면 현재와 미래에 대한 개연성 있는 예측을 할 수 있다고 봤다.
MBTI란?
검사 문항 구성
문항 유형
- 외향성 지표
- 나는 새로운 사람 만나기를 좋아한다
- 나는 사람 돕는 것을 좋아한다
- 빠르게 대응하기보다 충분히 생각한 후 답하기를 좋아한다
- 다양한 부류의 친구들이 있다
- 쉽게 긴장을 푼다
- 나는 어울리기에 편한 사람이다.
- 직관성
- 이미 검증된 기술보다 새로운 기술 익히기를 좋아한다.
- 구체적인 것보다 비유적인 게 좋다.
- 미래보단 현재가 중요하다.
- 관광지의 설명을 듣는 것보다 사진 보는 게 더 중요하다.
- 감정성/인식성
- 나는 일을 조직하기를 즐긴다.
- 단점을 보고 비판적인 경향이 있다.
- 일을 시작하는 데서 만족을 얻는다.
- 나는 쉽게 실망한다.
- 새로운 정보를 접하면 그때마다 목표를 수정한다.
- 현재를 즐기고 일은 나중에 마무리한다.
- 기타 질문
- 소셜 미디어를 자주 사용한다.
- 친구보다 가족과 더 많은 시간을 보낸다.
- 가격이 비싸도 만족도가 높으면 상관없다.
사용자들로부터 얻은 상품에 대한 선호도를 이용하여 관심사를 예측하는 기법
아마존, 넷플릭스 등에서 사용되고 있음